Adversarial training has been empirically shown to be more prone to overfitting than standard training. The exact underlying reasons still need to be fully understood. In this paper, we identify one cause of overfitting related to current practices of generating adversarial samples from misclassified samples. To address this, we propose an alternative approach that leverages the misclassified samples to mitigate the overfitting problem. We show that our approach achieves better generalization while having comparable robustness to state-of-the-art adversarial training methods on a wide range of computer vision, natural language processing, and tabular tasks.
translated by 谷歌翻译
Adversarial training is widely acknowledged as the most effective defense against adversarial attacks. However, it is also well established that achieving both robustness and generalization in adversarially trained models involves a trade-off. The goal of this work is to provide an in depth comparison of different approaches for adversarial training in language models. Specifically, we study the effect of pre-training data augmentation as well as training time input perturbations vs. embedding space perturbations on the robustness and generalization of BERT-like language models. Our findings suggest that better robustness can be achieved by pre-training data augmentation or by training with input space perturbation. However, training with embedding space perturbation significantly improves generalization. A linguistic correlation analysis of neurons of the learned models reveal that the improved generalization is due to `more specialized' neurons. To the best of our knowledge, this is the first work to carry out a deep qualitative analysis of different methods of generating adversarial examples in adversarial training of language models.
translated by 谷歌翻译
In this paper, we increase the availability and integration of devices in the learning process to enhance the convergence of federated learning (FL) models. To address the issue of having all the data in one location, federated learning, which maintains the ability to learn over decentralized data sets, combines privacy and technology. Until the model converges, the server combines the updated weights obtained from each dataset over a number of rounds. The majority of the literature suggested client selection techniques to accelerate convergence and boost accuracy. However, none of the existing proposals have focused on the flexibility to deploy and select clients as needed, wherever and whenever that may be. Due to the extremely dynamic surroundings, some devices are actually not available to serve as clients in FL, which affects the availability of data for learning and the applicability of the existing solution for client selection. In this paper, we address the aforementioned limitations by introducing an On-Demand-FL, a client deployment approach for FL, offering more volume and heterogeneity of data in the learning process. We make use of the containerization technology such as Docker to build efficient environments using IoT and mobile devices serving as volunteers. Furthermore, Kubernetes is used for orchestration. The Genetic algorithm (GA) is used to solve the multi-objective optimization problem due to its evolutionary strategy. The performed experiments using the Mobile Data Challenge (MDC) dataset and the Localfed framework illustrate the relevance of the proposed approach and the efficiency of the on-the-fly deployment of clients whenever and wherever needed with less discarded rounds and more available data.
translated by 谷歌翻译
我们通过查看在弥漫表面上铸造的对象的阴影来研究个体的生物特征识别信息的问题。我们表明,通过最大似然分析,在代表性的情况下,阴影中的生物特征信息泄漏可以足够用于可靠的身份推断。然后,我们开发了一种基于学习的方法,该方法在实际设置中证明了这种现象,从而利用阴影中的微妙提示是泄漏的来源,而无需任何标记的真实数据。特别是,我们的方法依赖于构建由从每个身份的单个照片获得的3D面模型组成的合成场景。我们以完全无监督的方式将我们从合成数据中学到的知识转移到真实数据中。我们的模型能够很好地概括到真实的域,并且在场景中的几种变体都有坚固的范围。我们报告在具有未知几何形状和遮挡对象的场景中发生的身份分类任务中的高分类精度。
translated by 谷歌翻译
ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列,该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战,这是由于探测器的几何形状,不均匀的散射和冰中光的吸收,并且低于100 GEV的光,每个事件产生的信号光子数量相对较少。为了应对这一挑战,可以将ICECUBE事件表示为点云图形,并将图形神经网络(GNN)作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开,对不同的中微子事件类型进行分类,并重建沉积的能量,方向和相互作用顶点。基于仿真,我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术,包括已知系统不确定性的影响。对于中微子事件分类,与当前的IceCube方法相比,GNN以固定的假阳性速率(FPR)提高了信号效率的18%。另外,GNN在固定信号效率下将FPR的降低超过8(低于半百分比)。对于能源,方向和相互作用顶点的重建,与当前最大似然技术相比,分辨率平均提高了13%-20%。当在GPU上运行时,GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件,这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。
translated by 谷歌翻译
学习在未知环境中安全导航是监视和救援操作中使用的自动无人机的重要任务。近年来,已经提出了许多基于学习的同时定位和映射(SLAM)系统,这些系统依靠深神经网络(DNN)(DNNS)提出了用于传统功能描述符表现不佳的应用。但是,这种基于学习的SLAM系统依靠DNN功能编码在典型的深度学习环境中训练有素的离线训练。这使得它们不太适合在训练中未见的环境中部署的无人机,在训练中,持续适应至关重要。在本文中,我们提出了一种新的方法,可以通过调节低复杂性词典学习和稀疏编码(DLSC)管道,并使用新提出的二次贝叶斯惊喜(QBS)因素调节,以学习在未知环境中即时猛烈抨击。我们通过在充满挑战的仓库场景中通过无人机收集的数据来实验验证我们的方法,在这种情况下,大量模棱两可的场景使视觉上的歧义很难。
translated by 谷歌翻译
联合学习(FL)为培训机器学习模型打开了新的观点,同时将个人数据保存在用户场所上。具体而言,在FL中,在用户设备上训练了模型,并且仅将模型更新(即梯度)发送到中央服务器以进行聚合目的。但是,近年来发表的一系列推理攻击泄漏了私人数据,这强调了需要设计有效的保护机制来激励FL的大规模采用。尽管存在缓解服务器端的这些攻击的解决方案,但几乎没有采取任何措施来保护用户免受客户端执行的攻击。在这种情况下,在客户端使用受信任的执行环境(TEE)是最建议的解决方案之一。但是,现有的框架(例如,Darknetz)需要静态地将机器学习模型的很大一部分放入T恤中,以有效防止复杂的攻击或攻击组合。我们提出了GradSec,该解决方案允许在静态或动态上仅在机器学习模型的TEE上进行保护,因此将TCB的大小和整体训练时间降低了30%和56%,相比之下 - 艺术竞争者。
translated by 谷歌翻译
这项工作总结了2022年2022年国际生物识别联合会议(IJCB 2022)的IJCB被遮挡的面部识别竞赛(IJCB-OCFR-2022)。OCFR-2022从学术界吸引了总共3支参与的团队。最终,提交了六个有效的意见书,然后由组织者评估。在严重的面部阻塞面前,举行了竞争是为了应对面部识别的挑战。参与者可以自由使用任何培训数据,并且通过使用众所周知的数据集构成面部图像的部分来构建测试数据。提交的解决方案提出了创新,并以所考虑的基线表现出色。这项竞争的主要输出是具有挑战性,现实,多样化且公开可用的遮挡面部识别基准,并具有明确的评估协议。
translated by 谷歌翻译
在基于模型的强化学习中,代理可以利用学习的模型来改善其行为方式。两种普遍的方法是决策时间计划和背景计划。在这项研究中,我们有兴趣了解在什么条件下以及在哪种情况下,这两种计划样式之一的性能将比需要快速响应的域中的其他域名更好。在通过动态编程的视角查看它们之后,我们首先考虑了这些计划样式的经典实例,并提供了理论结果和假设,在纯计划,计划和学习以及转移学习设置中,他们的表现更好。然后,我们考虑了这些计划样式的现代实例,并提供了在最后两个考虑的设置中表现更好的假设。最后,我们执行几个说明性实验,以验证我们的理论结果和假设。总体而言,我们的发现表明,即使决策时间计划在其经典实例中的表现不如其现代实例化,但在计划和学习和转移学习环境中,它的表现也比背景计划更好或更好。
translated by 谷歌翻译
自从商业领域聊天机器人出现以来,它们已被广泛地在客户服务部门工作。通常,这些商业聊天机器人是基于检索的,因此他们无法响应提供的数据集中缺少的查询。相反,生成性聊天机器人尝试创建最合适的响应,但大多无法在客户机器人对话框中创建平稳的流程。由于客户在收到响应后仍有几乎没有选择的选择,因此对话框变得短缺。通过我们的工作,我们试图最大程度地提高简单的对话代理的智能,以便可以回答看不见的查询,并产生后续问题或备注。我们已经为一家珠宝店建造了聊天机器人,该聊天机器人通过找到与语料库中模式的输入相似,从而找到了客户查询的根本目标。我们的系统为客户提供了音频输入界面,因此他们可以用自然语言对其进行交谈。将音频转换为文本后,我们训练了模型来提取查询的意图,找到适当的响应并以自然的人类声音与客户交谈。为了衡量系统的性能,我们使用了召回,精度和F1分数等性能指标。
translated by 谷歌翻译